可播放环境交互式视频生成时空处理无监督学习挑战性基准

可播放环境：交互式视频生成和时空处理

In this work, we propose a method to construct PEs ofcomplex scenes that supports a large set of interactive ma-nipulations. Trained on a dataset of monocular videos, ourmethod presents six core ...

视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等

标签： ViViT DiT VideoPoet

真没想到，举例视频生成上一轮的集中爆发才过去三个月，没想OpenAI一出手，该领域又直接变天了自打2.16日OpenAI发布sora以来，不但把同时段Google发布的Gemmi Pro 1.5干没了声音，而且网上各个渠道，大量新闻媒体、...

基于变分自编码器的交互式旋律生成方法

标签：音乐生成变分自编码器深度学习交互式生成

针对这些问题，提出了一种基于变分自编码器（VAE）的无监督交互式旋律生成方法。通过为VAE引入显式的旋律轮廓条件推理学习，实现了对生成旋律局部与全局特征的灵活控制。实验表明，该方法易于优化且具有良好的旋律...

Sora之前的视频生成发展史：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

标签：文生视频 Gen2 Emu Video

第一种是基础模式（Basic Mode），用户只需要提供一张指导图片+文本描述，PixelDance 就可以生成有高度一致性且有丰富动态性的视频，其中指导图片可以是真实图片，也可以利用现有的文生图模型生成。而达到这样拔群的...

视频字幕生成中的时空动态和语义丰富性

标签：时空动态语义属性丰富视频字幕生成视觉特征编码门控递归单元

research.uwa.edu.au，{naveed.akhtar，wei.liu，syed.gilani，ajmal.mian}@ uwa.edu.au摘要视频字幕的自动生成是计算机视觉领域的一个基本挑战。最近的技术通常采用卷积神经网络（CNN）和递归神经网络（RNN）的...

"基于运动显著性引导的时空传播无监督视频对象分割

标签：新的显着性估计技术

基于运动显著性引导的时空传播无监督视频对象分割胡元婷1，黄家斌2，Alexander G. 施温11伊利诺伊大学香槟分校2弗吉尼亚理工大学{ythu2，aschwing}@ [email protected]抽象。无监督视频分割在从对象识别到...

论文研究-交互式视频编辑的设计与实现.pdf

标签：视频编辑非线性编辑图像处理

提出一种视频编辑系统框架，以实现帧层次的交互式视频编辑。在此框架结构上可开发出其他基于帧的视频编辑工具。重点介绍了一个淡入淡出工具，可以对视频片段加入淡入淡出的图形，并自动消除两个淡入淡出片段间的重叠...

用于无监督视频对象分割的新型网络，充分利用视频帧之间的相关性，通过全局共同关注机制改进深度学习解决...

标签：视频对象分割共同注意连体网络无监督学习全局相关性端到端可训练框架

3623See More，Know More：使用Co-Attention Siamese Networks的无监督视频对象分割Xiankai Lu1人，Wenguan Wang1人，Chao Ma2人，Jianbing Shen1人，Ling Shao1人，Shuanh Porikli3人1阿联酋Inception Institute of...

自监督时空对比学习方法

标签：自监督学习上下文化时空对比学习视频表示学习引言多实例场景学习

139770具有自监督的上下文化时空对比学习0Liangzhe Yuan 1 Rui Qian 1, 2 � Yin Cui 1 Boqing Gong 10Florian Schroff 1 Ming-Hsuan Yang 1 Hartwig Adam 1 Ting Liu 101 Google研究 2...

自监督视频表示学习的可组合增强编码方法

标签：自监督视频表示学习可组合增强编码对比学习方法视频表征学习时间动态信息

8834用于视频表示学习的可组合增强编码孙晨1、2阿尔莎·纳格拉尼1田永隆3科迪莉亚·施密德11谷歌研究2布朗大学3麻省理工{chensun，anagrani，cordelias} @[email protected] google.com摘要我们专注于自监督视频表示...

交互式原型学习改善自我中心动作识别

标签：自我中心动作识别交互式原型学习动作识别主动对象分类端到端学习

Verb-to-Noun Selection BottlePanKnifePotatoBowlBagVerb: “Cut”BottlePanBowlKnifePotato81680自我中心动作识别的交互式原型学习0Xiaohan Wang 1,2 Linchao Zhu 3 Heng Wang 4 Yi Yang 101 CCAI，...

无监督元学习算法的动作-外观对齐元自适应的少镜头动作识别

标签：无监督动作识别外观对齐元自适应 MetaUVFS算法少镜头学习方法视频流-S热动作识别

8484基于动作-外观对齐元自适应的无监督少镜头动作识别Jay Patravali‡Gaurav Mittal†Ye Yu†Fuxin Li‡Mei Chen†俄勒冈州立大学简介{gaurav.mittal...oregonstate.edu摘要我们提出MetaUVFS作为第一个无监督元学习算法的视频流...

Efficient Neural Radiance Fields for Interactive Free-viewpoint Video用于交互式自由视点视频的高效...

标签：论文阅读笔记音视频

本文旨在解决高效制作交互式自由视点视频的挑战。最近的一些工作为神经辐射场配备了图像编码器，使它们能够跨场景泛化。在处理动态场景时，他们可以简单地将每个视频帧视为单独的场景，并执行新颖的视图合成以生成...

循环单目深度的无监督学习方法及其在动态场景中的应用

标签：循环单目深度学习无监督学习框架移动物体和相机运动多组滤波器上采样

本文提出了一种无监督学习框架，用于联合预测单目深度和包括移动物体和相机运动在内的完整3D运动。（1）采用循环调制单元来自适应地和迭代地融合编码器和解码器特征。这提高了单幅图像深度推断的性能，而不会过度...

STRL：3D 点云的时空自监督表示学习

标签： 3d 学习计算机视觉

3D视觉工坊学习交流群STRL：3D 点云的时空自监督表示学习论文作者：Siyuan Huang, Yichen Xie, Song-Chun Zhu, Yixin Zhu1加州大学洛杉矶分校 2上海交通大学 3北京通用人工智能研究院 4北京大学 5清华大学此文笔者：...

无监督视频对象分割中的互逆变换网络简介及应用分析

标签：无监督视频对象分割主要对象定位互逆变换网络外观特征与运动特征背景运动物体排除

15455无监督视频对象分割任苏成1，刘文喜2，刘永拓1，陈浩鑫1，韩国强1，何胜峰11华南理工2福州大学摘要无监督视频对象分割（UVOS）的目的是在没有任何人为干预的情况下，对视频中的主要对象进行分割.由于缺乏关于...

"多模态视频生成式预训练用于字幕生成

标签：多模态视频字幕生成视频预训练 MV-GPT 未来话语多模态编码解码

+ 1…179590端到端生成式预训练用于多模态视频字幕生成0Paul Hongsuck Seo ag Arnab Cordelia SchmidGoogle Research0{ phseo,anagrani,aarnab,cordelias } @google.com0000390。这很痛0们希望0些东西一...

时空渐进学习的动作检测器

标签：时空渐进学习动作检测器视频动作检测渐进式学习框架时间上下文

戴维斯1扬·考茨21马里兰大学帕克分校2NVIDIA3加州大学戴维斯分校摘要在本文中，我们提出了Spatie-TEmporalP rogressive（STEP）动作检测器-一个渐进式学习框架，用于视频中的时空动作检测。从一些粗略的建议长方体...

邻域关系编码的无监督表示学习方法及其在计算机视觉任务中的应用

标签：邻域关系编码基础科学穆罕默德·萨博鲁自我监督表示学习无监督特征学习

传统的无监督学习方法只专注于训练深度网络来理解视觉数据的原始特征，主要是能够从潜在空间重构数据。他们往往忽视了样本之间的关系，这可以作为一个重要的度量自我监督。与以往的工作不同，新的重建算法旨在保持...

季节不变性的弱监督特征学习

标签：季节不变性特征学习弱监督特征学习密集特征表示季节或时间外观影响

SourceTargetAnchorPositiveNegative64590相同的特征，不同的天：用于季节不变性的弱监督特征学习0Jaime Spencer, Richard Bowden, Simon Had�eldSurrey大学视觉、语音和信号处理中心(CVSSP)0{ jaime.spencer...

弱监督视频关联中的上下文相似性和视觉聚类损失

标签：强监督视频关联上下文相似性视觉聚类损失文件关键内容视频标注方法

Jing Shi†Jia Xu‡Boqing Gong‡Chenliang Xu†V1V2V3V...这是一个具有挑战性的任务，先前基于多实例学习（MIL）的图像关联方法在视频领域中失败。最近的工作尝试将视频级MIL分解为帧级MIL，通过在帧上应用加

交互传播网络的视频对象分割

标签：第三帧交互传播网络用户引导视频对深度学习方法视频对象分割

5247：第三帧…基于交互传播网络的快速用户引导视频对象成吴延世大学李俊英Adobe研究...我们在2018年DAVIS挑战赛的交互式赛道基准我们在速度和准确性上都超过了我们还证明了我们的方法可以很好地与真实的用户交互。1.

视觉注意力在无监督视频对象分割中的作用及其解决方案

标签：视觉注意力无监督视频对象分割模块化训练

3064通过视觉注意力王文冠1，2，宋红梅1，赵树阳1，沈建兵1，2，赵三元1，StevenC. [email protected]://github.com/wenguanwang/AGS摘要本文对视觉注意在无监督视频对象分割（UVOS

【LMM 007】Video-LLaVA：通过投影前对齐以学习联合视觉表征的视频多模态大模型

标签：人工智能多模态 LLM

Video-LLaVA，它可以从图像和视频的混合数据集中学习，并相互促进。Video-LLaVA 在 5 个图像问题解答数据集和 4 个图像基准工具包的 9 个图像基准中取得了优异的性能。

"全局-局部运动Transformer：无监督动作学习

标签：无监督预训练动作识别全局局部注意机制

+v：mala2255获取更多论文基于全局-局部运动Transformer的无监督动作学习Boeun Kim1、 2、Hyung Jin Chang3、Jungho Kim2和Jin Young Choi11ASRI，部门欧洲经委会，首尔大学2韩国电子技术研究所3伯明翰大学计算机...

基于内存聚合网络的高效交互视频对象分割

标签：高效交互式视频对象分割内存聚合网络 iVOS 多轮交互方案

10366基于内存聚合网络的高效交互式视频对象分割Jiuxu Miao1，2Yunchao Wei2Yi Yang2†1百度研究2ReLER，悉尼科技大学jiaxu. student.uts.edu.au，{yunchao.wei，yi.yang}@ uts.edu.au摘要交互式视频对象分割（iVOS...

北航提出基于语言桥接的时空交互来进行准确指向性视频对象分割

标签：人工智能

本篇分享 CVPR 2022 ...美团提出LBDT，基于语言桥接的时空交互来进行准确指向性视频对象分割，性能SOTA！代码已开源！详细信息如下：论文地址：https://arxiv.org/abs/2206.03789代码地址：https://github.com/dzh19

基于时间互补性的强化学习方法对图像-视频人物再识别的研究

标签：基于时间互补性强化学习图像-视频人物再识别点到集匹配问题时间互补引导强化学习

7319基于时间互补性的强化学习的图像-视频人物再识别Wei Wu<$，Jiawei Liu<$，Kecheng Zheng，Qibin Sun，Zheng-Jun Zha*中国科学技术大学{wuvy，zkcys001} @ mail.ustc.edu.cn，{jwliu6，qibinsun，zhazj} @ustc....

基于注意力时空图神经网络的交通预测

标签：大数据算法 python

Temporal Graph Data for Traffic Forecasting》的一篇2021年发表在《IEEE Transactions on Knowledge and Data Engineering》上的使用注意力时空图网络（AST...

"远程光电容积描记术：通过对比学习未标记视频中的心率信号估计

标签：推断的PPG信号自监督rPPG模型可解释的显著性视频重采样的输入视频体积描记法

3995推断的PPG信号和心率自监督rPPG模型可解释的显著性视频和重采样的输入视频我的心是通过对比学习：来自未标记视频的远程光电体积描记法John Gideon*SimonStent*丰田研究所美国{john.gideon，simon.stent} @ tri....